iT邦幫忙

DAY 17
4

資料探勘的開發, 經驗與未來系列 第 17

Data Mining 的理論基礎, 眾人智慧/貘的資料探勘30講

  • 分享至 

  • xImage
  •  

記得在研究所某個老師對 "人工智慧" 下個定義, 說為甚麼會被稱為人工智慧是因為這還不成熟, 因此沒人知道這是甚麼, 在 50 年代的人工智慧教的是現在的資料結構, 10 年後教的是演算法, 過 10 年教的是 Fuzzy, 再過 10 年教的是現在的 DSS Decision Support System, 在 90 年代 Data Mining 也算人工智慧, 現在當然是已經不在那麼沒人知道是甚麼, 只是還是相對模糊.

在資料中探勘出有用的資訊, 重點這些資料到底是甚麼呢? 就是許許多多人的思考後的行為結晶, 從這個共同行為中找到一種可以參考的有價值資訊, 這也說不定是種共同的智慧, 雖然這個也談不上是人工智慧, 但說成 "工人智慧" 是比較合理的, 因為這的確是我們成千上萬數億的人所產生的 "眾人智慧"...
在幾年前的 TED 中, 有人用 flickr 的 Tag 做個例子, 來講 "眾人智慧" 與 "專家" 的差異, 不得不否認的, 雙方都有其價值, 只是這價值不同, 甚至在 "創造力" 上, 雖然幾個專家的創作可以比得了成千上萬的 "業餘群眾", 但在機制上各有其限制, 在數位專家中, 觀點會被受限, 但群眾雖有眾多觀點, 但相對是更難聚焦.

而資料探勘就是在從這些數億筆資料中, 想辦法聚焦, 歸納出更好的資訊, 甚至進一步的成為智慧, 而這個在一些問題上提出解決的答案, 當然不同的來源資訊就會配適不同的問題的解決方法跟不同的答案, 甚至有時候我們必須從問題的答案找資料源, 或是從資料源來看這個可以解決甚麼樣的問題提供甚麼樣的答案.

當然這個有個前題是: "天底下無新鮮事", 也就是說, 任何事情在之前都有類似的事發生過, 所以我們可以用其做參考, 但往往有時也會有另一個論點出現: "天底下沒有兩個完全相同事", 因為往往因為人事時地物的不一樣, 沒有兩件事可能會是一樣的, 自然不會有相同的結論與結果或解法, 因此最後也是從所有事情找到其很多可能性, 只是最後會不會是在這可能性中, 也只能說個 8 成, 但這個 8 成, 就往往比很多 "猴子" 厲害得很多了.

雖然比 "猴子" 跟那些 False Authority Syndrom 的人比好多了, 但真的要跟 "專家" 比是不太可能, 但一簽涉到 "人", 大家都知道人的時間精力都有限, 不可能幫許多大量的人與問題做解答, 在之前或許可以用 FAQ 來解決, 但有時候 FAQ 是不夠用的, 無論是問題的方向或即時性都不同, 但若資料探勘的夠對, 即使是很笨的方式也可以找到可能解.

這樣說起來, 事實上 Google 的 Search Result 也很像 Data Mining, 因為當你輸入一個問題 (關鍵字), 就會出現別人寫過的成千上萬解, 而第一頁列出最有可能的前 10 解 (20 解), 然後我們就一筆筆看或看標題就可以知道是不是我們要的解, 這樣說起來 Google 也是個大的 Data Mining 機制, 事實上有很多系統也是這樣實作出來的沒錯.

當然, 這也代表你在網路的任何回應都是在這 Data Mining 參與其中的一個環節阿, 當不了專家, 至少可以當 "網友 A"...


上一篇
關鍵字疊迨泡沫萃取法/貘的資料探勘30講
下一篇
指數的價值/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 則留言

0
食夢黑貘
iT邦研究生 3 級 ‧ 2010-10-28 23:01:21

大家應該知道我講的 TED Talk 是那一個吧?

0
p12076
iT邦新手 4 級 ‧ 2010-10-29 09:27:08

您都在問了...當然不知道。

食夢黑貘 iT邦研究生 3 級 ‧ 2010-10-29 20:23:37 檢舉

沒有啦, 我當然知道阿, 只是想知道有多少人看過那個 Talk..

我要留言

立即登入留言